Clasificación de frases obscenas o vulgares dentro de tweets
نویسندگان
چکیده
Resumen. Se propone una metodología para la detección frases obscenas y vulgares en los tweets, debido a que México es uno países donde se usa mucho el doble sentido para comunicarse. La metodología propuesta se apoya en un diccionario de mexicanismos etiquetado manualmente por expertos. Se pudo detectar que las palabras obscenas y vulgares son las que más se emplean y los estados del país que más las utilizan. Además en base al diccionario, se logra clasificar un conjunto de tweets, dichos tweet fueron tomados por zonas geográficas de México, consideramos que dichas personas son mexicanas y por lo tanto pueden llegar a manejar el doble sentido. La intención de esto es poder tener un sistema que ayude a encontrar cuando una persona está utilizando el doble sentido dentro de algún texto corto, como pueden ser los tweets y además lograr hacer mapas de México que nos proporcione información los lugares donde se utilizan con mayor frecuencia el doble sentido.
منابع مشابه
Análisis sobre el idioma español en México, con base en la frecuencia de palabras azules, rojas, obscenas y vulgares en Twitter
Resumen. En este artículo se presenta una comparativa entre estados de la República Mexicana de la frecuencia de palabras azules, rojas, obscenas y vulgares que escriben usuarios de la red social de microblogging Twitter. Se presentan gráficas de los resultados obtenidos. El objetivo es mostrar en mapas del comportamiento de la frecuencia de palabras por cada estado y clasificados por el tipo d...
متن کاملReconocimiento de dígitos escritos a mano mediante métodos de tratamiento de imagen y modelos de clasificación
Resumen. El ROC (Reconocimiento Óptico de Caracteres) es una línea de investigación dentro del procesamiento de imágenes para la que se han desarrollado muchas técnicas y metodologías. Su objetivo principal consiste en identificar un carácter a partir de una imagen digitalizada que se representa como un conjunto de píxeles. En este trabajo realizamos para el ROC un proceso iterativo que consta ...
متن کاملDetectando la prioridad de contenidos generados en Twitter por medio de n-gramas de palabras
Resumen. En la actualidad, el uso de las redes sociales ha revolucionado la forma en que los usuarios intercambian ideas, opiniones e información. Gracias a este cambio de paradigma en la forma de interactuar entre los usuarios, las grandes compañ́ıas y personajes públicos han comenzado a prestar particular interés a la opinión generada respecto a sus productos y/o servicios, actos y/o eventos d...
متن کاملIntegración de optimización evolutiva para el reconocimiento de emociones en voz
Resumen. En este art́ıculo se presenta el desarrollo de un sistema de reconocimiento de emociones basado en la voz. Se consideraron las siguientes emociones básicas: Enojo, Felicidad, Neutro y Tristeza. Para este propósito una base de datos de voz emocional fue creada con ocho usuarios Mexicanos con 640 frases (8 usuarios × 4 emociones × 20 frases por emoción). Los Modelos Ocultos de Markov (Hid...
متن کاملOntologías y MDA: Una Revisión de la Literatura
Resumen La arquitectura dirigida por modelos (MDA) y las ontologías constituyen dos de los recursos más populares dentro de la comunidad informática actual para el desarrollo de sistemas de información. MDA presenta un marco de trabajo para crear soluciones informáticas. A su vez, las Ontologías son recursos para facilitar la interoperabilidad entre herramientas de software heterogéneas. Aunque...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Research in Computing Science
دوره 85 شماره
صفحات -
تاریخ انتشار 2014